智能论文笔记

Probing for Understanding of English Verb Classes and Alternations in Large Pre-trained Language Models

David K. Yi , James V. Bruno , Jiayu Han , Peter Zukerman , Shane Steinert-Threlkeld

分类：自然语言处理

2022-09-11

我们研究了Levin（1993）所述的动词交替类的程度和句子级预测任务。我们遵循并扩展了Kann等人的实验。（2019年），旨在探测静态嵌入是否编码动词的框架选择性。在单词和句子级别上，我们发现来自PLM的上下文嵌入不仅超过了非上下文嵌入，而且在大多数交替类中的任务上达到了惊人的高精度。此外，我们发现证据表明，PLM的中间层平均比所有探测任务中的较低层都能取得更好的性能。

translated by 谷歌翻译

PulseImpute: A Novel Benchmark Task for Pulsative Physiological Signal Imputation

Maxwell A. Xu , Alexander Moreno , Supriya Nagesh , V. Burak Aydemir , David W. Wetter , Santosh Kumar , James M. Rehg

分类：机器学习 | 人工智能

2022-12-14

The promise of Mobile Health (mHealth) is the ability to use wearable sensors to monitor participant physiology at high frequencies during daily life to enable temporally-precise health interventions. However, a major challenge is frequent missing data. Despite a rich imputation literature, existing techniques are ineffective for the pulsative signals which comprise many mHealth applications, and a lack of available datasets has stymied progress. We address this gap with PulseImpute, the first large-scale pulsative signal imputation challenge which includes realistic mHealth missingness models, an extensive set of baselines, and clinically-relevant downstream tasks. Our baseline models include a novel transformer-based architecture designed to exploit the structure of pulsative signals. We hope that PulseImpute will enable the ML community to tackle this significant and challenging task.

translated by 谷歌翻译

A new Reinforcement Learning framework to discover natural flavor molecules

Luana P. Queiroz , Carine M. Rebello , Erbet A. Costa , Vinícius V. Santana , Bruno C. L. Rodrigues , Alírio E. Rodrigues , Ana M. Ribeiro , Idelfonso B. R. Nogueira

分类：机器学习

2022-09-13

味道是遵循社会趋势和行为的风味行业的焦点。新调味剂和分子的研究和开发在该领域至关重要。另一方面，自然风味的发展在现代社会中起着至关重要的作用。鉴于此，目前的工作提出了一个基于科学机器学习的新颖框架，以在风味工程和行业中解决新的问题。因此，这项工作带来了一种创新的方法来设计新的自然风味分子。评估了有关合成可及性，原子数以及与天然或伪天然产物的相似性的分子。

translated by 谷歌翻译

Machine Learning Partners in Criminal Networks

Diego D. Lopes , Bruno R. da Cunha , Alvaro F. Martins , Sebastian Goncalves , Ervin K. Lenzi , Quentin S. Hanley , Matjaz Perc , Haroldo V. Ribeiro

分类：机器学习 | (统计)机器学习

2022-09-07

最近的研究表明，犯罪网络具有复杂的组织结构，但是是否可以用来预测犯罪网络的静态和动态特性。在这里，通过结合图表学习和机器学习方法，我们表明，可以使用政治腐败，警察情报和洗钱网络的结构性特性来恢复缺失的犯罪伙伴关系，区分不同类型的犯罪和法律协会以及预测犯罪分子之间交换的总金额，所有这些都具有出色的准确性。我们还表明，我们的方法可以预期在腐败网络的动态增长过程中，其准确性很高。因此，与在犯罪现场发现的证据类似，我们得出结论，犯罪网络的结构模式具有有关非法活动的重要信息，这使机器学习方法可以预测缺失的信息，甚至预测未来的犯罪行为。

translated by 谷歌翻译

A Multi-purpose Real Haze Benchmark with Quantifiable Haze Levels and Ground Truth

Priya Narayanan , Xin Hu , Zhenyu Wu , Matthew D Thielke , John G Rogers , Andre V Harrison , John A D'Agostino , James D Brown , Long P Quang , James R Uplinger

分类：计算机视觉

2022-06-13

由于存在浓烟或阴霾，从室外视觉环境收集的图像通常会降解。在这些退化的视觉环境（DVE）中，在场景理解中进行研究的关键挑战是缺乏代表性的基准数据集。这些数据集需要评估降级设置中的最新对象识别和其他计算机视觉算法。在本文中，我们通过引入带有朦胧和无雾图像的第一个配对的真实图像基准数据集以及原位的雾化密度测量来解决其中的一些限制。该数据集是在受控的环境中生产的，其专业烟雾产生机器覆盖了整个场景，并由从无人机（UAV）（UAV）和无人接地车（UGV）的角度捕获的图像组成。我们还评估了一组代表性的最先进的飞行方法以及数据集中的对象探测器。本文介绍的完整数据集，包括地面真相对象分类框和雾密度测量值，为社区提供了以下网址评估其算法的信息：https：//a2i2-archangel.vision。该数据集的一个子集已用于在CVPR UG2 2022挑战的雾痕中进行对象检测。

translated by 谷歌翻译

Learning from learning machines: a new generation of AI technology to meet the needs of science

Luca Pion-Tonachini , Kristofer Bouchard , Hector Garcia Martin , Sean Peisert , W. Bradley Holtz , Anil Aswani , Dipankar Dwivedi , Haruko Wainwright , Ghanshyam Pilania , Benjamin Nachman

分类：机器学习 | 人工智能

2021-11-27

我们概述了新兴机会和挑战，以提高AI对科学发现的效用。AI为行业的独特目标与AI科学的目标创造了识别模式中的识别模式与来自数据的发现模式之间的紧张。如果我们解决了与域驱动的科学模型和数据驱动的AI学习机之间的“弥补差距”相关的根本挑战，那么我们预计这些AI模型可以改变假说发电，科学发现和科学过程本身。

translated by 谷歌翻译

BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning for Automatic Speech Recognition

Yu Zhang , Daniel S. Park , Wei Han , James Qin , Anmol Gulati , Joel Shor , Aren Jansen , Yuanzhong Xu , Yanping Huang , Shibo Wang

分类：自然语言处理 | 机器学习

2021-09-27

我们总结了使用巨大的自动语音识别（ASR）模型的大量努力的结果，该模型使用包含大约一百万小时音频的大型，多样的未标记数据集进行了预训练。我们发现，即使对于拥有数万个小时的标记数据的非常大的任务，预训练，自我培训和扩大模型大小的组合也大大提高了数据效率。特别是，在具有34K小时标记数据的ASR任务上，通过微调80亿个参数预先训练的构象异构体模型，我们可以匹配最先进的（SOTA）性能（SOTA）的性能，只有3％的培训数据和通过完整的训练集可以显着改善SOTA。我们还报告了从使用大型预训练和自我训练的模型来完成一系列下游任务所获得的普遍利益，这些任务涵盖了广泛的语音域，并涵盖了多个数据集大小的大小，包括在许多人中获得SOTA性能公共基准。此外，我们利用预先训练的网络的学会表示，在非ASR任务上实现SOTA结果。

translated by 谷歌翻译

Plinko: Eliciting beliefs to build better models of statistical learning and mental model updating

Peter A. V. DiBerardino , Alexandre L. S. Filipowicz , James Danckert , Britt Anderson

分类：人工智能

2021-07-23

之前的信仰是贝叶斯的认知核心核心，但许多这些账户不直接测量前锋。更具体地，信仰的初始状态大量影响在更新特定模型时假设假设新信息的利用方式。尽管如此，先前和后部信仰要么从连续参与者行动推断，或者通过贫困手段引发。我们参与者在理论上不可知的方式发挥游戏“Plinko”的一个版本，首先引发个人参与者前瞻。然后直接测量随后的学习和更新参与者信仰。我们表明，参与者持有各种前锋，这些前锋围绕原型概率分布，反过来影响学习。在后续实验中，我们表明，参与者前锋随着时间的推移稳定，更新信仰的能力受到简单环境操纵的影响（即短暂的休息）。该数据揭示了直接衡量参与者信仰的重要性，而不是假设或推断它们在迄今为止的文献中被广泛完成。 Plinko游戏提供了一种灵活和融合的方法，用于检查统计学习和心理模型更新。

translated by 谷歌翻译

PolypGen: A multi-center polyp detection and segmentation dataset for generalisability assessment

Sharib Ali , Debesh Jha , Noha Ghatwary , Stefano Realdon , Renato Cannizzaro , Osama E. Salem , Dominique Lamarque , Christian Daul , Michael A. Riegler , Kim V. Anonsen

分类：计算机视觉 | 机器学习

2021-06-08

在结肠息肉是众所周知的如通过结肠镜检查鉴定的癌症的前体或者有关诊断工作为症状，结肠直肠癌筛查或某些疾病的系统的监视。虽然大部分息肉是良性的，在数量，尺寸和息肉的表面结构是紧密相连的结肠癌的风险。有高的漏检率和不完全去除结肠息肉的存在由于可变性质，困难描绘异常，高复发率和结肠的解剖外形。过去，多种方法已建成自动化息肉检测与分割。然而，大多数方法的关键问题是，他们没有经过严格的大型多中心的专用数据集进行测试。因此，这些方法可能无法推广到不同人群的数据集，因为他们过度拟合到一个特定的人口和内镜监控。在这个意义上，我们已经从整合超过300名患者6个不同的中心策划的数据集。所述数据集包括与由六名高级肠胃验证息肉边界的精确划定3446个注释息肉标签单帧和序列数据。据我们所知，这是由一组计算科学家和专家肠胃的策划最全面的检测和像素级的细分数据集。此数据集已在起源的Endocv2021挑战旨在息肉检测与分割处理可推广的一部分。在本文中，我们提供全面的洞察数据结构和注释策略，标注的质量保证和技术验证我们的扩展EndoCV2021数据集，我们称之为PolypGen。

translated by 谷歌翻译

Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition

Yu Zhang , James Qin , Daniel S. Park , Wei Han , Chung-Cheng Chiu , Ruoming Pang , Quoc V. Le , Yonghui Wu

分类：机器学习

2020-10-20

我们利用Libri-Light数据集的未标记音频来获得半监督学习中最新的发展的最新发展，以获得自动语音识别的最新结果。更确切地说，我们使用使用WAV2VEC 2.0预训练的巨型构象模型进行了嘈杂的学生培训，并使用巨型构象模型进行了训练。通过这样做，我们能够在Librispeech测试/测试中获得1.4％/2.6％的单词率率（WERS），而目前的最新设备为1.7％/3.3％。

translated by 谷歌翻译